查看原文
其他

基于安全自适应强化学习的自主避障控制方法

SCIS 中国科学信息科学 2022-09-25


王珂, 穆朝絮, 蔡光斌, 汪韧, 孙长银. 基于安全自适应强化学习的自主避障控制方法. 中国科学: 信息科学, DOI: 10.1360/SSI-2022-0054


研究意义


以无人机、无人车、机器人等为代表的自主无人系统已经得到普遍关注和初步应用, 为了执行复杂任务, 需要这类运动对象能够进行快速决策并实现精准控制. 
特别是面向巡逻、搜寻、侦察等特殊应用场景, 工作环境中存在着各种障碍物, 要求无人系统完成既定任务的同时避免与障碍物发生碰撞. 因此, 设计自主避障控制策略以生成安全轨迹, 是运动规划与决策的重要环节.


避障方法大体上可以分为两类: 
一类是预生成方法, 典型的如A*算法和Dijkstra算法, 这种方法利用整个环境模型来寻求最佳安全轨迹, 是全局规划但不具备实时调整性; 
另一类是反应式方法, 典型的如人工势场法, 此时智能体仅利用有限的检测数据寻找安全轨迹, 是局部规划但易于在线实施. 
然而, 已报道的大多数实时方法要么没有考虑策略的优化性, 要么仅能考虑几个时间步上的优化性. 特别是涉及复杂非线性的时候, 最优避障控制器的设计更具挑战性.

近年来, 强化学习与最优控制的融合发展为解决这个问题提供了新颖思路, 典型的一种方法便是自适应动态规划, 利用神经网络实现函数逼近并借助强化学习过程实现最优控制策略的近似求解. 
关于自适应动态规划实现最优避障控制, 已经有一些方案被提出, 然而其避障策略偏于保守、数学定义不够清晰, 优化性能仍然有待提升.


本文工作


为了进一步提高决策优化性和控制效果, 本文在最优控制的设定下, 提出一种基于强化学习的自主避障控制方法, 以自适应方式在线生成安全运行轨迹. 
首先, 利用障碍函数法在代价函数中设计了一个光滑的奖惩函数, 从而将避障问题转换为一个无约束的最优控制问题. 
然后, 利用行为-评价神经网络和策略迭代法实现了自适应强化学习, 其中评价网络利用状态跟随核函数逼近代价函数, 行为网络给出近似最优的控制策略.


同时, 通过状态外推法获得模拟经验, 使得评价网络能利用经验回放实现可靠的局部探索.
最后, 在简化的无人机系统和非线性数值系统上进行了仿真实验与方法对比, 结果表明, 提出的避障控制方法能实时生成较优的安全运行轨迹.


仿真结果


二维坐标系下的无人机避障实验在一个简化二维旋翼无人机系统上进行, 无人机做平飞运动, 不涉及高度变化. 
智能体在多障碍环境中生成的安全轨迹如图3(a)所示, 可以看出智能体成功到达了目标点并且有效规避了所有障碍物; 并且基本不会进入避让区, 这得益于基于状态外推的虚拟探索和障碍惩罚项.


图3(b)中分别给出了评价网络权值、行为网络权值、调度函数和与障碍物的实时距离. 值得说明的是, 由于行为网络采用了梯度投影法, 行为权值的收敛过程更为平滑, 这使得生成的避障控制策略不会陡然变化.

三维坐标系下的无人机避障实验在一个简化三维旋翼无人机系统上进行, 此时障碍对应为三维球体.
三维环境下生成的运动轨迹如图9所示, 从两个不同的视角可以看出, 无人机可以成功地避开每个障碍物成功到达目标点; 无人机不会深入避让区太多, 从而有效保证了安全性. 


图10分别给出了AC网络的权值信号、调度函数、外推的调度函数. 注意到, 针对这个三维系统, SARL中每个网络仅需4个权值, 对应于StaF核函数拥有4个基函数分量; 相比之下, 经典自适应动态规划方法一般需要使用6个以上, 若涉及到复杂非线性, 权值个数还将进一步增加. 


另外还需注意的是, 从图10(b)中可以发现实时调度函数s(x)并没有达到最大值1, 这说明无人机本体不会碰到障碍物; 但是外推的调度函数s(x_k)则会达到最大值1 (如图10(c)所示), 这意味着外推的虚拟体确实会碰到障碍物, 这种对比反差恰好说明了提出方法中虚拟探索的可靠性.


本文内容可能会与最终出版文章有微小差异,点击下方阅读原文按钮,快速获取文章最新版本。


《中国科学:信息科学》| SCIENCE CHINA Information Sciences

及时报道计算机科学与技术、控制科学与控制工程、通信与信息系统、微电子与固体电子学等领域基础与应用研究方面的原创性成果.

英文版投稿:https://mc03.manuscriptcentral.com/scis

中文版投稿:https://www.scicloudcenter.com/SSI/login/index

快速访问:http://scis.scichina.com/



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存